智能论文笔记

Accelerating hypersonic reentry simulations using deep learning-based hybridization (with guarantees)

Paul Novello , Gaël Poëtte , David Lugato , Simon Peluchon , Pietro Marco Congedo

分类： (统计)机器学习 | 机器学习

2022-09-27

在本文中，我们对数值模拟的加速感兴趣。我们专注于高超音速行星再入问题，该问题涉及耦合流体动力学和化学反应。模拟化学反应需要大部分计算时间，但另一方面，无法避免获得准确的预测。我们面临成本效率和准确性之间的权衡：模拟代码必须足够有效地在操作环境中使用，但必须足够准确，以忠实地预测现象。为了解决这个权衡，我们设计了一个混合模拟代码，将传统的流体动态求解器与近似化学反应的神经网络耦合。当在大数据上下文中应用以及它们源于其矩阵矢量结构的效率时，我们依靠它们的力量来实现重要的加速因子（$ \ tims 10 $至$ \ times 18.6 $）。本文旨在解释我们如何在实践中设计这种具有成本效益的混合模拟代码。最重要的是，我们描述了确保准确性保证的方法论，使我们能够超越传统的替代建模，并将这些代码用作参考。

translated by 谷歌翻译

Goal-Oriented Sensitivity Analysis of Hyperparameters in Deep Learning

Paul Novello , Gaël Poëtte , David Lugato , Pietro Marco Congedo

分类： (统计)机器学习 | 机器学习

2022-07-13

通过神经网络解决新的机器学习问题总是意味着优化众多的超参数，以定义其结构并强烈影响其性能。在这项工作中，我们研究了基于希尔伯特·史克米特独立标准（HSIC）的面向目标灵敏度分析的使用，用于超参数分析和优化。超参数生活在通常复杂而尴尬的空间中。它们可以具有不同的本质（分类，离散，布尔，连续），相互作用并具有相互依存关系。所有这些使得执行经典灵敏度分析是不平凡的。我们可以减轻这些困难，以获取能够量化超参数对神经网络的最终错误的相对影响的强大分析指数。这种有价值的工具使我们能够更好地理解超参数，并使超参数优化更容易解释。我们在超参数优化的背景下说明了这些知识的好处，并得出了一种基于HSIC的优化算法，我们将其应用于MNIST和CIFAR，经典的机器学习数据集，但也适用于Runge功能和Bateman方程解决方案，兴趣解决方案的近似值，用于科学的机器学习。该方法产生既有竞争力又具有成本效益的神经网络。

translated by 谷歌翻译

Leveraging Local Variation in Data: Sampling and Weighting Schemes for Supervised Deep Learning

Paul Novello , Gaël Poëtte , David Lugato , Pietro Congedo

分类： (统计)机器学习 | 机器学习

2021-01-19

在神经网络对功能的监督学习的背景下，我们声称并经验证明，当数据集的分布集中在学习功能陡峭的区域时，神经网络会产生更好的结果。我们首先使用泰勒（Taylor）扩展以数学上可行的方式来欺骗这一假设，并根据要学习的功能的导数强调新的培训分布。然后，理论推导允许构建一种我们称为基于方差的样本加权（VBSW）的方法。VBSW使用标签局部差异来加权训练点。该方法是一般，可扩展的，具有成本效益的，并且可以显着提高大量神经网络的性能，以在图像，文本和多元数据上进行各种分类和回归任务。我们通过涉及从线性模型到重新NET和BERT的神经网络的实验来强调其优势。

translated by 谷歌翻译

Dirichlet-Survival Process: Scalable Inference of Topic-Dependent Diffusion Networks

Gaël Poux-Médard , Julien Velcin , Sabine Loudcher

分类：机器学习

2022-12-12

Information spread on networks can be efficiently modeled by considering three features: documents' content, time of publication relative to other publications, and position of the spreader in the network. Most previous works model up to two of those jointly, or rely on heavily parametric approaches. Building on recent Dirichlet-Point processes literature, we introduce the Houston (Hidden Online User-Topic Network) model, that jointly considers all those features in a non-parametric unsupervised framework. It infers dynamic topic-dependent underlying diffusion networks in a continuous-time setting along with said topics. It is unsupervised; it considers an unlabeled stream of triplets shaped as \textit{(time of publication, information's content, spreading entity)} as input data. Online inference is conducted using a sequential Monte-Carlo algorithm that scales linearly with the size of the dataset. Our approach yields consequent improvements over existing baselines on both cluster recovery and subnetworks inference tasks.

translated by 谷歌翻译

Multivariate Powered Dirichlet Hawkes Process

Gaël Poux-Médard , Julien Velcin , Sabine Loudcher

分类：机器学习

2022-12-12

The publication time of a document carries a relevant information about its semantic content. The Dirichlet-Hawkes process has been proposed to jointly model textual information and publication dynamics. This approach has been used with success in several recent works, and extended to tackle specific challenging problems --typically for short texts or entangled publication dynamics. However, the prior in its current form does not allow for complex publication dynamics. In particular, inferred topics are independent from each other --a publication about finance is assumed to have no influence on publications about politics, for instance. In this work, we develop the Multivariate Powered Dirichlet-Hawkes Process (MPDHP), that alleviates this assumption. Publications about various topics can now influence each other. We detail and overcome the technical challenges that arise from considering interacting topics. We conduct a systematic evaluation of MPDHP on a range of synthetic datasets to define its application domain and limitations. Finally, we develop a use case of the MPDHP on Reddit data. At the end of this article, the interested reader will know how and when to use MPDHP, and when not to.

translated by 谷歌翻译

Interactions in Information Spread

Gaël Poux-Médard

分类：机器学习

2022-09-16

自5000年前写作的发展以来，人类生成的数据以不断增长的速度产生。旨在简化信息检索的经典档案方法。如今，归档不够了。每天生成的数据量超出了人类的理解，并呼吁新的信息检索策略。更相关的方法在于理解数据流中传达的总体思想。为了发现这种一般趋势，需要对基本数据生成机制的精确理解。在解决这个问题的丰富文献中，信息互动的问题几乎尚未开发。首先，我们研究了这种相互作用的频率。在随机块建模中取得的最新进展的基础上，我们探索了几个社交网络中互动的作用。我们发现在这些数据集中相互作用很少。然后，我们想知道互动如何随着时间而发展。较早的数据作品不应对别有用心的数据生成机制产生永恒的影响。我们使用动态网络推理进步对此进行建模。我们得出结论，互动是简短的。最后，我们设计了一个框架，该框架将基于Dirichlet-Hawkes过程的稀有和简短互动建模。我们认为，这种新的模型适合简短而稀疏的交互建模。我们在Reddit上进行了大规模应用，发现交互在此数据集中起着较小的作用。从更广泛的角度来看，我们的工作导致了一系列高度灵活的模型，并重新思考了机器学习的核心概念。因此，我们在现实世界的应用以及对机器学习的技术贡献方面都开辟了一系列新颖的观点。

translated by 谷歌翻译

Properties of Reddit News Topical Interactions

Gaël Poux-Médard , Julien Velcin , Sabine Loudcher

分类：机器学习

2022-09-16

大多数信息传播模型在线依赖于以下假设：信息彼此独立传播。但是，一些作品指出了研究相互作用在现实世界过程中的作用的必要性，并强调了这样做的可能困难：相互作用稀疏和简短。作为答案，最近的进步开发了模型来说明潜在出版物动态的相互作用。在本文中，我们建议扩展和应用一个这样的模型，以确定Reddit的新闻头条之间的互动是否在其基本出版机制中起重要作用。在对2019年的100,000个新闻标题进行了深入的案例研究之后，我们检索了有关互动的最新结论，并得出结论，它们在该数据集中扮演了较小的角色。

translated by 谷歌翻译

Serialized Interacting Mixed Membership Stochastic Block Model

Gaël Poux-Médard , Julien Velcin , Sabine Loudcher

分类：机器学习

2022-09-16

去年，在推荐系统中使用随机块建模（SBM）的兴趣恢复了。这些模型被视为能够处理标记数据的张量分解技术的灵活替代方法。最近提议通过将较大的上下文作为输入数据并在上下文相关元素之间添加二阶交互来解决通过SBM解决离散建议问题的最新作品。在这项工作中，我们表明这些模型都是单个全局框架的特殊情况：序列化的交互混合成员随机块模型（SIMSBM）。它允许建模任意较大的上下文以及任意高级的交互作用。我们证明了SIMSBM概括了一些最近基于SBM的基线。此外，我们证明我们的配方允许在六个现实世界数据集上增加预测能力。

translated by 谷歌翻译

Why do tree-based models still outperform deep learning on tabular data?

Léo Grinsztajn , Edouard Oyallon , Gaël Varoquaux

分类：机器学习 | 人工智能 | (统计)机器学习

2022-07-18

尽管深度学习已经在文本和图像数据集上取得了巨大进展，但其对表格数据的优势尚不清楚。我们在大量数据集和高参数组合中为标准和新型深度学习方法以及基于树的模型（例如Xgboost和随机森林）提供了广泛的基准。我们从具有表格数据的清晰特征的各个域以及针对拟合模型和找到良好的超参数的基准测试方法来定义了一组45个数据集。结果表明，即使没有考虑其较高的速度，基于树的模型即使在中型数据（$ \ sim $ 10K样本）上仍然是最先进的。为了理解这一差距，我们对基于树模型和神经网络（NNS）的不同感应偏见进行了实证研究。这导致了一系列挑战，这些挑战应指导研究人员旨在构建表格特定的NNS：1。对非信息功能保持鲁棒，2。保持数据的方向，并3.能够轻松学习不规则的功能。为了刺激对表格体系结构的研究，我们为基准的标准基准和原始数据贡献了：20 000计算小时的每个学习者的每个学习者搜索每个学习者。

translated by 谷歌翻译

Metrics reloaded: Pitfalls and recommendations for image analysis validation

Lena Maier-Hein , Annika Reinke , Evangelia Christodoulou , Ben Glocker , Patrick Godau , Fabian Isensee , Jens Kleesiek , Michal Kozubek , Mauricio Reyes , Michael A. Riegler

分类：计算机视觉

2022-06-03

自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是，当前的度量使用通常是不明智的，并且不能反映基本的域名。在这里，我们提出了一个全面的框架，该框架指导研究人员以问题意识的方式选择绩效指标。具体而言，我们专注于生物医学图像分析问题，这些问题可以解释为图像，对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ，数据集和算法与输出问题相关的属性的属性与问题指纹相关，同时还将其映射到适当的问题类别，即图像级分类，语义分段，实例，实例细分或对象检测。然后，它指导用户选择和应用一组适当的验证指标的过程，同时使他们意识到与个人选择相关的潜在陷阱。在本文中，我们描述了指标重新加载推荐框架的当前状态，目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的，将在社区驱动的优化之后公开作为用户友好的工具包提供。

translated by 谷歌翻译